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tat TypePress 开发 过 程 中 的 想法 , 方法 , 探讨 等 
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授权 许可 


除 特 别 声明 外 ， 本 书 使 用 CC BY-SA 3.0 License (创作 共用 署名 -相同 方式 共享 3.0 许 可 协 
议 ) 授权 。 


A 4t & x Martini 


在 上 一 版 Go 语言 博客 实践 中 , 作者 提 到 不 使 用 框架 来 完成 一 个 Blog 系统 . 现在 选择 Martini 
作为 基础 框架 确实 和 Martini 设计 的 独特 性 有 关 . Martini 的 核心 Injector 实现 了 依赖 注入 ( 参 
见 控制 反 转 ). 
这 里 有 两 篇 博客 可 供 参 考 Martini 的 工作 方式 和 Martini 中 的 Handler. 简单 的 说 Injector 通过 
reflect 削弱 了 合作 对 象 间 引用 依赖 . 
对 于 Martini 的 使 用 可 以 简单 总 结 为 : 

e Martini 对 象 方 法 Map/MapTo/Use/Handlers/Action 非 并 发 安全 , 服务 器 运行 前 使 用 . 

e Router 对 象 也 是 非 并 发 安全 的 , 服务 器 运行 前 使 用 . 

e Context 对 象 是 在 http Request 时 动态 创建 的 . 

e 所 有 要 使 用 的 对 象 必须 先 Map/MapTo. 

。 对 http.ResponseWriter 任何 的 Write 都 会 完结 响应 . 内 部 方法 是 终止 了 响应 Handler. 

e 善 用 Context 对 象 的 Next 方法 会 产生 奇效 . 
上 一 版 本 因为 不 能 找到 "AER" 的 框架 而 放弃 使 用 框架 . Martini 在 Injector 的 支持 下 为 " 解 耦 " 提 
供 了 可 能 . 这 正 是 笔者 希望 的 . 


Package 选 择 与 修改 


e Martini 社 区 martini-contrib 


Martini 社区 贡献 的 package, 可 能 会 使 用 一 些 .如果 您 研究 了 Martini 和 这 些 contrib 
package, SARMA 09 ARAB T . 


。 角色 控制 accessflags 


角色 控制 是 应 用 中 的 常见 需求 , accessflags 基于 Martini 实现 了 一 个 通过 interger 标记 值 
控制 Martini.Handler 是 否 允 许 访 问 . 可 以 用 于 角色 控制 . (已 被 社区 收录 ) 


e 配置 文件 支持 tom-toml 
笔者 重新 写 了 一 个 TOML 解析 器 tom-toml, 参见 文章 有 关 tom-toml 的 一 些 事 儿 , 和 第 六 章 
的 内 容 . 

o 数据 库 操作 typepress/db 
upper.io/db 是 gosexy/db 的 重 构 版 本 . 代码 质量 很 高 . 但 是 包 路 径 问 题 同样 给 import 造成 


了 问题 .为 方便 , 笔者 fork 了 一 个 github 版 本 typepress/db. upper.io/db 为 常见 的 
SQL/NoSQL 数据 库 提供 了 统一 的 调用 接口 , 这 是 非常 难能可贵 的 . 


e 日 志 支 持 typepress/log 


ey 学 习 了 uniqush/log 的 一 些 好 想法 重新 构建 的 . typepress/log 支持 日 志 分 
|, 并 实现 了 一 个 file 日 志 , 一 个 email 日志 


e template 模板 
可 能 会 有 几 个 备 选 版 本 martini-contrib 中 有 render, 笔者 写 有 template. 
e 国际 化 支持 i18n 


这 是 一 个 简洁 的 i18n 支持 接口 , 仿照 fmt.Sprint, fmt.Sprintf 的 形式 . 在 使 用 中 即便 暂时 没 
有 国际 化 支持 的 需求 , 使 用 i18n 所 带 来 的 消耗 也 是 极 小 的 . 完全 可 以 当 作 fmt.Sprint, 
fmt.Sprintf 使 用 . 


依赖 注入 


Martini 的 核心 就 是 实现 依赖 注入 , ARAB. 依据 依赖 注入 的 思路 , 上 述 的 package 被 替换 掉 
应 该 不 是 一 件 复杂 的 事情 . 随时 引入 依赖 注入 也 应 该 很 容易 . 也 许 吧 , 实践 中 我 会 关注 这 个 事 
情 


A. 


永远 的 MVC 


MVC 是 对 软件 软件 系统 三 个 基础 部 分 的 描述 , 就 好 像 冯 : 诺 伊 曼 结构 或 者 哈佛 结构 对 计算 机 体 
系 结构 的 定义 . MVC 是 客观 存在 的 , 是 事实 . 


© 无 论 你 的 代码 中 是 否 显示 的 使 用 了 MVC 的 方法 , 她 都 存在 . 
© 无 论 你 的 代码 是 否 显示 的 遵循 MVC 的 方法 , 她 都 存在 . 
© 无 论 你 的 代码 是 否 违 背 了 公认 的 MVC 方法 , 她 都 存在 . 
总 之 只 要 你 写 代码 , 无 论 你 怎么 写 , 她 都 存在 . 对 于 一 个 运算 表达 式 : 
a =D ETC 
又 或 者 对 于 一 个 函数 : 


func Foo(b, C | interface{}){ 
// ke £4 WIEN J 
} 


e a Æ view 
e "+" 就 是 controller 
e b,c 就 是 model 


MVC 在 心中 


常见 的 方法 
开发 者 通 么 做 : 


° 、 包含 controller 这 个 词 
° 文件 名 ， & Controller 这 个 词 


e 目录 名 ， 包含 controller 这 个 词 


在 名 称 上 显示 出 来 是 好 方法 . 这 增强 了 代码 可 读 性 , 一 目 了 然 . 当然 如 果 目 录 名 已 经 用 
了 controller J, 目录 之 下 的 文件 或 者 类 型 声明 是 否 有 必要 再 加 上 controller , 语言 不 同 , 习 
MAR, 并 没有 定式 . Go 语言 一 向 提倡 能 省 则 省 . 


依据 MVC 目录 看 起 来 是 这 个 样子 


conf 


—controllers // XZ2HAPRKALHET N 层 
| L—something 


models 


L— views 


t—login 


L—signup 


典型 的 树 状 结构 增强 了 代码 可 读 性 , 是 常见 MVC 目录 组 织 形 式 . 


TypePress 的 方法 


能 保有 树 状 代码 目录 结构 无 疑 有 助 于 管理 维护 . 基于 Martini Injector 风格 下 , 对 象 间 的 依赖 被 
降低 , 对象 依赖 关系 不 必 遵 循 树 状 结构 , 目录 结构 也 不 必 保 持 树 状 . 这 在 很 多 时 候 会 更 灵活 , 同 
时 这 也 是 一 种 不 常见 的 方法 , TypePress 将 尝试 使 用 一 些 . 


局 平 目录 


意思 是 尽量 降低 目录 曾经 深度 , 视觉 上 不 显示 依赖 关系 . 事实 上 这 类 似 于 组 件 独立 化 . 如 果 代 码 
是 辅助 性 的 , 例如 服务 器 端的 Handler, 那 就 表现 为 独立 的 Rep. 如 果 可 以 分 组 , 例如 浏览 器 前 
端 组 件 , 那 就 在 同一 个 Rep 下 做 扁平 目录 . 


自动 注册 路 由 


验 性 想法 , 目的 是 给 应 用 生成 工具 提供 基础 支持 . 对 于 具体 应 用 , 比如 博客 , 业务 层面 的 控制 
器 , 多 具有 层级 关系 . 其 中 还 涉及 角色 控制 和 http Request Method. 用 martini.Router 写 起 来 
像 这 样 


router.Get("/profile", roleAllow("Admin"),youHandler ) 


如 果 用 自动 注册 路 由 写 起 来 像 这 样 


core.AutoRouter (youHandler ) 
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前 提 是 要 把 path,method,role 写 到 文件 路 径 里 . 对 应 上 面 的 例子 , ZA 
这 样 几 种 
e github.com/UserName/RepName/Admin/GET/profile.go 


e github.com/UserName/RepName/Admin/GET.profile.go 
e github.com/UserName/RepName/Admin.GET. profile.go 


都 是 能 被 识别 的 写法 , 依据 大 小 写 和 "1/""." 作 为 分 割 符号 实现 自动 注册 路 由 是 可 能 的 . 由 此 设计 
出 自动 构建 /装配 工具 就 有 了 基础 .TypePress 将 尝试 这 种 方式 . 


Bast & 


OOP 的 思想 , 无 疑 是 非常 实用 有 效 的 . 事实 是 , 无 论语 言 是 否 直接 支持 面向 对 象 的 编程 . 程序 员 
在 写 代 码 的 时 候 常常 会 应 用 OOP 的 思想 . 


Go 语言 下 没有 类 (Class), RAW HR, 没有 this HH, RASA, 只 有 复合 对 象 (或 匿名 属 
性 ). 复合 对 象 和 继承 是 完全 不 同 的 . 在 以 后 的 文字 中 , 继承 这 个 词 不 再 代表 一 般 OOP 下 的 继 
承 , 指 的 是 复合 对 象 . 应 用 OOP 的 思想 , WEB 应 用 下 控制 器 常见 形式 祖先 类 型 的 示意 写法 ( 现 
实 中 没有 太 大 意义 )， 








// 定义 基础 控制 器 结构 

type BaseController struct { 
Data interface{} // ER 
Req *http.Request // 请 





Res http.Responsewriter // am % 
} 


// 官方 net/http 包 要 求实 现 的 接口 
func (p *BaseController) ServeHTTP(w http.ResponseWriter, r *http.Request) { 
p.Req = r // 保存 起 来 供 实 例 使 用 


p.Res = w 

if r.Method == "POST" { 
p.Post() 

} 


} 


// 对 应 http POST 方式 
func (p *BaseController) PR) { 
// 继承 者 必用 i 
// BaseController #77 
p.Res.WriteHeader (403) 





访问 


那 就 只 能 返回 403 拒绝 访问 


NP te ANF IK 





} 


// Login 控制 器 
type Login struct { 
BaseController // 匿名 复合 





} 
// 这 里 必须 覆盖 BaseController.Post, 以 实现 Login 的 具体 行为 
func (p *Login) Post() { 
if p.Req.Form. Gert login name") == "" { 
p.Data = "无 效 的 登录 名 " 
return 
} 
// RELAY 
p.Data = "%4 
} 


// 把 这 些 行为 定义 成 接口 

type Controller interface { 
ServeHTTP(http.ResponseWriter, *http.Request) 
Post() 


用 例 


http.Handle("/login", &Login{}) 


IRRA HANA 
并 发 下 维护 上 下 文 


很 明显 现实 中 这 样 的 用 法 是 错误 的 , 因为 WEB 的 请 求 是 并 发 的 , 这 样 写 所 有 并 发 的 请 求 都 由 
同一 个 edn 去 处 理 响 应 ，Req ,Res , Data 在 并 发 中 都 被 指向 相同 的 对 象 . 这 是 无 法 正 
常 工 作 的 . 这 就 是 常 说 的 维护 上 下 文 , Context. 


并 发 环境 每 一 个 请 求 都 要 有 维护 独占 数据 的 能 力 . 除非 没有 独占 数据 要 维护 . 


先 重新 审视 官方 包 server.go 中 的 代码 


type Handler interface { 
ServeHTTP(Responsewriter, *Request) 
} 
func Handle(pattern string, handler Handler) { DefaultServeMux.Handle(pattern, handler) } 
func HandleFunc(pattern string, handler func(ResponseWriter, *Request)) { 


DefaultServeMux.HandleFunc(pattern, handler) 
} 


func (mux *ServeMux) HandleFunc(pattern string, handler E eae *Request)) { 
mux.Handle(pattern, HandlerFunc(handler)) // 进行 了 转换 ， 只 无 为 

} 

type HandlerFunc func(ResponseWriter, *Request) // 确实 没有 独占 数据 要 维护 

// ServeHTTP calls f(w, r). 


func (f HandlerFunc) ServeHTTP(w ResponseWriter, r *Request) { 
f(w, r) 
} 


可 "| 
这 个 http.Handler 接口 其 实 只 是 被 当 作 一 个 函数 使 用 了 . 并 发 问题 留 给 使 用 者 自己 解决 . 可 以 
这 样 做 


http.HandleFunc("/login", func(w http.Responsewriter, r *http.Request) { 
p := &Login{} 
p.ServeHTTP(w, r) 


}) 


每 次 请 求 都 有 新 的 Login 对 象 产生 . 当然 这 个 写法 很 生硬 , 如 果 有 100 个 控制 器 , 难道 还 要 写 
100 个 不 同 的 写法 ?1 可 以 采用 下 面 的 方法 . 


函数 法 


用 结构 体 直 接 使 用 函数 , 所 有 上 下 文 维 护 都 在 函数 内 部 定义 成 局 部 变量 , 局 部 变量 在 函数 内 
部 是 独占 的 . 


func main() { 
http.HandleFunc("/login", login) 


func login(w http. ResponseWriter, r *http.Request) { 
// 维护 的 数据 是 局 部 变量 
Var data interface{} 
var post = func() { // MMe mais AARE: 
if r.Form.Get("login_name") == "" { 
data = "无 效 的 登录 名 " 
return 





} 
data = "登录 成 功 " 


} 
post() 


全 就 是 个 函数 , 但 是 并 发 下 , 这 完全 没有 问题 . 问题 在 于 如 何 和 其 他 的 模块 进行 数据 沟通 
ae 有 ,比如 可 以 用 ee 但 是 无 法 想象 整个 项 目 都 用 这 种 写法 . 


约定 构造 函数 


Go 没有 构造 函数 的 概念 的 . BR 系 我 们 约 定 一 个 . 其 他 语言 豆 常用 Constructor ， 这 里 选用 New 
更 符合 Go 风格 . 





// 给 控制 器 接口 增加 一 个 构造 函数 

type Controller interface { 
New() Controller 
ServeHTTP(w http.ResponseWriter, r *http.Request) 
Post() 


} 


// 扩充 Login , ŽI New 方法 

func (p *Login) New() Controller { 
return &Login{} 

} 


// 定义 一 个 http.Handler 接口 ， 支 持 构造 函数 
type HandlerNew struct { 

Controller Controller 
} 


// http.Handler 接口 实现 

func (p *HandlerNew) ServeHTTP(w http.Responsewriter, r *http.Request) { 
c := p.Constructor.New() 
c.ServeHTTP(w, r) 





用 例 


http.Handle("/login", HandlerNew{new(Login)}) 


用 反射 Value.New 


反射 包 reflect 中 的 reflect .Value 有 New 方法 ， 可 以 动态 A 的 构造 出 一 个 新 对 象 . 有 些 框架 
就 是 采用 了 这 种 方法 , 但 是 用 value.new 只 是 得 到 一 个 空 属性 对 象 ,要 对 对 象 进 行 初始 化 依然 
要 约定 初始 化 函数 , 这 反而 比 约定 构造 函数 费事 儿 . 这 里 就 不 具体 讨论 了 . 


Martini 下 的 并 发 


笔者 在 发 现 Martini 之 前 也 很 困惑 到 底 用 什么 办 法 更 好 , 所 以 写 了 早期 的 TypePress, 和 对 应 的 
Go-Blog-In-Action. Martini 巧妙 解决 了 WEB 并 发 中 的 上 下 文 维护 . Martini 发 现 了 WEB 开发 
中 单个 请 求 响应 要 维护 的 上 下 文 有 这 样 的 事实 : 


数据 类 型 是 预知 的 很 显然 

数据 类 型 有 限 的 很 显然 

° KERETE 是 唯一 的 就 算 偶 有 不 唯一 , 定义 个 别名 就 行 了 , 这 很 容易 

e 阶段 响应 , 完整 的 响应 过 程 往往 分 多 个 阶段 ,为 了 代码 复 用 , 各 个 阶段 有 独立 的 代码 


因此 Martini 采用 了 这 样 的 方案 : 


Martini 负责 动态 构建 一 个 Context 对 象 , Context 继承 自 Injector 

Martini 的 Handler 是 一 组 []Hanlder, 有 序 执行 

使 用 者 对 Handler 进行 阶段 性 功能 划分 , 先 执行 的 负责 准备 好 上 下 文 数 据 dat 
通过 Map(dat) 保存 到 Context. (实际 由 Injector 负责 ) 

后 续 Hander 要 用 dat, 直接 在 Handler 函数 中 加 入 参数 dat datType 

Injector 通过 reflect 分 析 Handler 的 参数 类 型 , 并 取出 dat, 调用 Handler 


oak WN = 


这 个 方法 比 gorilla/context 更 高 效 实用 , 虽然 都 是 用 map 保存 上 下 文 数据 , 差别 有 
e gorilla/context 的 map 是 全 局 的 , Martini 保存 到 Context 
e gorilla/context 只 是 做 了 key/value 存储 , Martini 完成 了 Handler 调用 


这 和 OOP 有 何 关系 ? 关系 是 


golang 不 是 真正 的 继承 ， 这 给 维护 上 下 文 数 据 造成 了 问题 . 
Martini 解决 了 上 下 文 数据 维护 问题 ， 应 用 可 以 放心 的 用 复合 写 逻 辑 代码 . 
上 下 文 数据 交 给 Martini 就 好 ， 


在 go 语言 下 要 跑 起 一 个 HTTP 服 务 器 是 很 容易 的 . 


package main 
import "net/http" 


func main() { 
http.ListenAndServe(":8080", http.FileServer(http.Dir("/usr/share/doc"))) 
} 


这 就 行 了 ,一 个 静态 文件 服务 器 就 跑 起 来 了 . TypePress 下 的 代码 是 这 样 的 


package main 
import "github.com/typepress/server" 


func main() { 
server .Simple() 
} 


这 个 服务 器 没有 设置 任何 Route, 只 返回 404, 裸奔 的 服务 器 . 这 只 是 表面 , 下 面 来 列举 下 这 个 
Simple Server 背后 都 做 了 哪些 工作 


置 基 本 参数 
有 三 种 方法 设置 服务 器 基本 参数 : 


e 通过 命令 行 参数 --help 可 以 获得 帮助 列表 
e os.Getenv 获取 应 用 通过 os.Setenv 设置 参数 
e 从 TOML 文件 读 取 TOML 文件 支持 已 经 默认 加 入 


基本 功能 
有 些 基本 的 功能 是 一 个 框架 需要 提供 的 


e 安全 关闭 机 制 shutdown 总 用 kill 是 不 安全 的 .得 益 于 manners 

。 i18n 接口 i18n 接口 非常 轻 量 , 当 fmt.Sprintf 使 就 行 

e 自 定义 信号 完全 采用 os.Signal 接口 , 安全 关闭 信号 就 是 基于 这 个 

e 延迟 初始 化 有 些 初始 化 工作 需要 在 main 执行 时 调用 

e 子路 由 按 http method 划分 的 子路 由 , 主 路 由 只 能 由 main HAA A 

色 控 制 字符 串 角色 命名 , 自动 转化 为 accessflags 支持 的 interger 
志 支 持 引入 typepress/log, 支持 file JË, email 发 送 


e 数据 库 接口 支持 4] Atypepress/db, 即便 不 需要 也 不 必 担 心 , 这 是 个 轻 量 接口 

e core 全 局 可 访问 的 对 象 和 types 类 型 

e 基于 Martini Injector 的 设计 这 是 最 最 重要 的 
这 样 列举 起 来 , MWK Simple Server 貌似 已 经 不 轻 量 了 . 不 ! 他 依然 是 轻 量 的 , 因为 这 些 接 
口 设计 的 很 轻 量 , 当 你 不 用 他 们 的 时 候 , 他 们 不 会 产生 过 多 的 消耗 . 这 些 接 口 的 代码 都 很 短 , 5] 
入 他 们 , 怎 加 不 了 多 少 代 码 空间 . 应 该 可 以 看 出 仅仅 是 这 些 基础 的 功能 已 经 形成 了 一 个 服务 器 


框架 . 


这 些 都 已 经 准备 好 了 . 哦 还 有 模板 , 这 个 东西 不 打算 默认 引入 , 各 种 口味 难 调 . 


模块 化 


这 些 很 多 都 是 独立 的 package, 可 以 单独 使 用 . 从 typepress org 可 以 看 出 , 模块 以 独立 的 rep 
出 现 . typepress 特别 注意 降低 依赖 , 写成 独立 rep 是 最 基本 的 方法 . 


Go-Pages 


熟悉 GitHub Pages 的 读者 , 看 到 Go-Pages 已 经 想到 静态 博客 这 个 词 了 . TypePress Ma A 
博客 起 步 ,一 点 点 迈进 带 数 据 库 的 博客 系统 . Github 的 Pages 功能 已 经 提出 了 实用 简洁 的 静态 
博客 方案 , jekyllrb 引擎 为 其 提供 强劲 动力 . Jekyll 给 出 了 很 好 的 文档 规范 , 可 以 直接 借鉴 其 目录 
结构 . Liquid 模板 也 有 Go 实现 Liquid Template Engine for Go. Go-Pages 尽 可 能 兼容 Jekyll, 
不 能 兼容 的 部 分 以 后 制作 转换 工具 进行 处 理 . 为 此 需要 准备 一 些 package. 


RootPath 


rootpath 为 多 域名 服务 器 绑 定 目录 的 package. 效果 上 有 点 像 URLRewrite 的 一 个 子 集 . 仅 对 
http.Request.Host 进行 分 析 , 匹配 成 功 设 定 相 应 的 静态 文件 目录 , 内 容 目 录 , 模板 目录 . 匹配 
失败 拒绝 访问 或 者 不 做 任何 操作 . RootPath 让 Go-Pages 博客 支持 子 域名 (站 群 ) 或 者 CNAME 

( 绑 定 域名 ) 支 持 . 


static 


static 在 设 定 好 的 静态 文件 目录 下 , 响应 URL.Path 请 求 的 静态 文件 , 尝试 发 送 对 应 的 Gzip 预 
压缩 文件 pathto/URL.Path.gz . 如果 没 有 找到 static 不 产生 404, 它 什么 都 不 做 . 不 产生 404 
有 很 多 好 处 . 基于 Martini 的 Handler 一 旦 产生 输出 就 会 结束 响应 过 程 , 不 产生 404 就 可 以 继续 
进行 处 理 , 比如 自 定义 404 页 面 , 比如 进行 动态 Gzip 压缩 , 然后 再 交 给 static 进行 输出 , 又 或 者 
那 根本 就 不 是 个 静态 页 面 , 交 给 后 续 的 Handler 处 理 , 如 果 最 终 无 法 匹配 , Martini 会 执行 


http.NotFound . 
Liquid 


Liquid 包 提 供 了 基本 Liquid 模板 支持 . Jekyll 对 liquid 其 进行 了 一 些 扩展 , 如 果 要 完全 兼容 
Jekyll 是 个 庞大 的 工程 . 但 是 , 有 必要 实现 一 些 如 Global Variables 之 类 的 . 用 到 的 时 候 再 分 析 . 


特别 的 ， Liquid 中 的 include tag 需要 使 用 者 自己 实现 IncludeHandler ,参见 
liquid.Configuration 的 接口 . 


MarkDown 


轻 量 文本 标记 语言 可 以 让 书写 者 专注 文章 内 容 , 而 不 是 为 版 式 费 神 , 很 适合 书写 博客 . 有 多 种 格 
式 可 选 . Go-Pages 暂时 支持 最 简单 的 MarkDown 格式 , 在 前 后 端 都 要 有 所 支持 . 


前 端 支持 MarkDown 的 很 多 ， markdown-editor 是 比较 简单 的 一 个 . blackfriday 是 Go 
语言 下 的 MarkDown 解析 器 . 前 端的 博客 文章 编辑 和 提交 这 里 不 讨论 了 . 


JingYes 


前 端 CSS 框架 更 是 有 太 多 选择 , 当前 比较 受 欢迎 的 当 属 BootStrap 和 PureCSS. Go-Pages 
使 用 JingYes. 这 里 不 再 列举 可 能 用 到 的 其 他 前 端 库 


JingYes 只 支持 现代 的 浏览 器 , 不 过 html 源 代码 非 党 简洁, 可 以 很 方便 的 改写 成 其 它 CSS 框架 


TOML 


置 文件 采用 TOML 格式 , 这 里 分 析 几 个 table. 


defalut 


[defalut ] 

# 安全 密 匙 ， 请 妥善 保管 ， 切 勿 外 泄 ， 

E 受 密 是 的 具体 使 用 影响 ， 更 改 密 是 可 能 会 造成 不 可 预计 的 破坏 ， 
secret = "" 

# 主 站 顶级 域名 

domain = "" 

# 本 地 监听 地 址 

laddr = ":80" 

# 共享 静态 文件 目录 

static = "pages/defalut" 

# 内 容 目 录 是 独立 的 ， 需 要 在 [[rootpath]] 中 设置 
content ="" 

# 共享 模板 文件 目录 

template = "pages/defalut/_layouts" 


作为 多 域名 博客 系统 有 些 css,js,image 资源 文件 是 可 以 共享 的 , static 目录 起 到 这 个 作用 . 但 
是 , 可 以 预计 , 很 可 能 会 把 MarkDown 文章 源 文件 预 泻 染 成 htm LH, 它 也 是 静态 文件 , 他 们 
所 属 的 base 目录 是 不 同 的 .static package 不 产生 404 的 方式 很 好 的 解决 了 这 个 问题 . Go- 
Pages 可 以 这 样 做 (m Æ Martini 对 象 ): 


// xæ defalut.static dir 
m.Map(http.Dir(core.Conf["defalut.static"].String())) 


m.Use(staticDefalutHandler) // defalut static 优先 
m.Use(rootPathHandlerForDomain) // it ‘tT root 
m.Use(staticHandlerForDomain) // 现在 访问 的 静态 文件 项 








rootpath 


[[rootpath] ] 


Flag = 1 # 1 == FStatic， 每 个 域名 都 可 以 独立 有 静态 文件 
Root = "pages/domain" 

Pattern = "*" 

Domain = "localhost" 


CategoryName = ["_site"] # Jekyll 的 习惯 用 site HR, FRA 


[[rootpath] ] 

Flag = 2 # 2 == FContent， 每 个 域名 都 有 独立 的 content 
Root = "pages/domain" 

Pattern = "*" 

Domain = "localhost" 


CategoryName = ["", "_posts"] 


[[rootpath] ] 

Flag = 4 # 4 == FTemplate， 尝 试 独立 的 _layouts 
Root = "pages/domain" 

Pattern = "2?" 

Domain = "localhost" 


CategoryName = ["", "", "_layouts"] 


上 述 几 个 package 给 Go-Pages 提供 了 最 基础 的 动力 . 流程 也 基本 确定 , coding... 


AR MT & A ot GB 


好 吧 , 这 是 一 个 单 章 . 


语法 解析 和 编译 原理 是 程序 员 的 基础 科目 , 笔者 却 一 直 没 有 学 好 . 看 着 语法 树 跳 来 跳 去 的 圈 园 ， 
脑子 里 像 有 一 群 猴子 在 踢 跌 . 一 直 想 有 机 会 补足 这 门 功课 ,为 TOML 写 个 解析 器 是 个 不 错 的 选 
择 . 因此 tom-toml 的 解析 是 纯 手 工 的 . 作为 一 个 新 手笔 者 无 法 用 正规 准确 的 文字 描述 解析 器 的 
写法 和 原理 , 因此 本 章 用 舞台 剧 来 比喻 解析 器 . 看 官 权 当 是 看 故事 , 不 必 严 格 追 究 文 法 和 用 词 . 
本 文 指 的 是 类 PEG 的 方法 , 这 里 有 一 篇 翻译 解析 表达 文法 . 简单 的 说 PEG 下 的 一 切 都 是 可 确 
定 的 , 无 二 义 性 , 上 下 文 无 关 , 无 回溯 的 (线性 时 间 ). 这 让 我 想到 了 舞台 剧 (事实 是 , 我 先 写 完了 
tom-toml 才 发 现 用 的 是 手工 PEG 的 方法 ). 剧本 是 写 好 的 , 场景 , 台词 , 演员 , 结果 都 是 固定 的 . 
那么 让 我 给 你 讲 个 大 导演 TOM 导演 一 出 舞台 剧 的 故事 


汤姆 的 故事 


吉它 湖 大 剧院 要 办 一 场 舞台 剧 , 这 个 任务 当然 是 由 大 导演 汤姆 来 做 , 不 然 还 有 谁 呢 ! 这 天 是 周 五 
下 午 三 点 , 汤姆 接 到 了 剧院 下 达 的 任务 , 演 一 场 舞台 剧 . 看 完 任 务 , 汤姆 怨念 骤 起 : 


啥 事 儿 都 找 我 ， 舞台 剧 反 反复 复 都 演 了 多 少年 了 ， 弄 啥 勒 ! 
不 中 ， 黑 唆 还 得 去 斗 地 主 鹃 ， 快 下 班 几 了 ， 时间 紧 任 务 急 ， 俩 钟头 弄 完 它 . 
AR, 把 咱 勒 临时 演员 都 叫 来 ， 有 活 儿 了 


助理 杰 森 抬 起 头 
ABIL, 投 子 事 儿 么 ? 你 快 说 ， 上 次 那个 剧本 的 大 括 张 还 没有 写 完 呢 . 
汤姆 
你 胡扯 啥 ， 不 是 叫 你 叫 临时 演员 都 来 么 ! 
AR 
没 得 问题 ! 100 分 钟 完 成 ， 
汤姆 
拉 到 吧 ，1 分 钟 ， 只 给 你 1 分 钟 ， 


杰 森 扭头 大 喊 


汤姆 要 发 福利 了 ,,,， 


peat AR, 司 琼 在 剧院 门口 已 经 蹲 守 三 个 月 了 ， 
是 等 活 儿 和 追 讨 工资 , 蹲 守 是 基本 功 . 杰 森 的 声音 让 三 人 眼睛 一 亮 , 下 一 秒 就 出 现在 汤姆 面前 ， 


不 然 还 能 去 哪儿 呢 ! 临时 演员 的 职业 操守 就 


此 刻 杰 森 的 脖子 还 处 于 180 度 状态 , 迷茫 的 望 着 门口 . 


RAE, 现在 有 个 急 活 儿 ， 我 直接 念 台词 你 们 谁 能 演 就 言 一 声 儿 


汤姆 猎 了 猎手 指头 


BRAS He At HR AT E a A 


我 认识 1， 我 能 演 


司 琼 一 脸 漠然 , 不 懂 啊 . 汤姆 傻眼 了 , 心 说 我 正 琢磨 第 一 句 说 啥 勒 , 这 俩 伙 当 台词 了 , 算 了 , 我 也 


懒 的 想 了 , 那 就 1 吧 , 这 .… 


艇 特 和 付 乐得 那个 高 兴 啊 


2 我 也 认识 ， 我 能 演 


汤姆 有 点 不 高 兴 了 , 这 俩 显摆 哈喇 ,认识 个 1,2 就 这 


RAFA T, 付 乐 得 心里 高 兴 啊 


点 我 也 会 ， 我 演 吧 


汤姆 受 不 了 了 


12. KRUR, MEM AIA, RAG 12.3 你 都 认识 了 3 


At HR AE — 48 FD 


没 问 题 ，12.3 RUR, 12.34567 我 也 能 演 


fe PE 


MES T KA, BS BIL 
中 了 ， 这 个 角色 给 你 了 ， 这 是 场次 安排 分 剧本 ， 好 好 练 练 ， 走 吧 
付 乐 得 接 分 剧本 扭头 走 了 
咱 接 着 走 台 词 啊 ， 下 个 台词 是 ， 
司 琼 其 实 是 他 们 三 个 学 历 最 高 的 了 , 研究 生 啊 , 可 惜 书 读 的 太 多 , PRAT, 只 知道 
从 小 就 知道 剧本 台词 都 是 以 "开始 的 , 不 然 那 就 不 是 台词 啊 ， ee 了 
汤姆 导演 ， 这 个 是 台词 ， 我 会 
汤姆 一 头 黑 线 , 感情 12.3 就 不 是 台词 | 起 了 
Keres, 我 前 面 说 了 那么 多 ， 那 都 不 叫 台词 1 你 @H6 趾 #A%$&$%#@%$@#$ 
FRPP Key, RAHA, 紧 锁 眉头 把 汤姆 的 每 一 个 字 都 记 下 
你 以 为 你 会 了 可 多 ， 你 不 就 认识 个 " 
琼斯 眉头 一 展 
咽 ， 汤 姆 导演 ， 你 说 的 台词 趴 好 ， 可 标准 了 ， 我 都 记 下 了 ， 保证 演 好 
汤姆 张大 嘴巴 足 足 90 分 钟 才 椤 过 神 来 
中 ， 就 这 吧 ， 给 你 拿 好 分 剧本 ， 赶 您 哆 走 吧 
琼斯 双手 接 过 剧本 , 鞠躬 , HA. BAT 
导演 给 我 也 安排 个 活 儿 吧 ， 我 都 认识 0123456789 % 
汤姆 随口 说 


那 你 就 报 开场 倒计时 吧 


汤姆 分 了 剧本 , 忽略 头 才 转 回 90 度 的 杰 天 头 看 表 . 5 点 , 汤姆 嘴角 一 扬 走出 了 办 公 室 . 


PEG 


PEG 的 解析 过 程 就 像 舞 台 剧 , 固定 的 台词 ( 待 解析 的 文本 ), 固定 的 演员 (token), 固定 场景 下 有 固 
定 的 演员 和 人 台词, 并 且 固定 的 转 场 . token 判定 函数 对 得 到 的 字符 逐个 判断 , 例如 当 顺序 流入 


1234.567 


直到 字符 "4" 时 , Itsinteger 和 ItsFloat 都 认为 可 能 认识 这 个 token, 都 反馈 "可 能 是 ", SMaybe 
KA. 出 现 了 ".", ltslnteger 返回 "不 认识 " SNot RA, ltsFloat 继续 返回 SMaybe. 后 续 的 字符 都 
完毕 ltsFloat 都 可 识别 , 都 返回 SMaybe. 最 后 ltsFloat 拿 到 EOF 后 确认 认识 , 返回 "确定 是 " 
SYes 状态 . 识别 token 就 是 这 么 一 个 过 程 . 


那么 , 整个 的 解析 流程 就 像 舞 人 台 剧 的 场景 , 每 个 场景 是 清楚 会 出 现 哪些 token 49. 以 TOML 78 
法 为 例 , 开始 场景 命名 为 stageEmpty, 可 允许 出 现 的 token 包括 : 


EOF 空 文本 也 是 允许 的 
Whitespace 白字 符 

NewLine 新 行 LF, CR, LFCR, CRLF 
Comment # 注释 

TableName [tableName ] 
ArrayOfTables [[arrayOfTableName] ] 
Key 键 名 


注 : 上 面 的 次 序 有 效率 问题 , 甚至 是 必须 的 次 序 才 能 实现 或 简化 代码 . 周知 开始 场景 和 结束 场景 
是 相同 的 , EOF 出 现在 stageEmpty 中 是 理所当然 的 . 如 果 没 有 token 被 匹配 , 那 一 定 是 语法 错 
R. 如 果 匹 配 , 就 进入 下 一 个 场景 , 每 个 场景 都 有 固定 的 token 列表 , 循环 这 个 过 程 直到 重 回 开 
始 场景 识别 到 EOF. token 和 场景 变化 可 以 这 样 描述 


stageEmpty 
EOF -> stageEnd 
Whitespace -> stageEmpty 
NewLine -> stageEmpty 
Comment -> stageEmpty 
TableName -> stageEmpty 
ArrayOfTables -> stageEmpty 
Key -> stageEqual 
stageEqual 
whitespace -> stageEqual 
Equal -> stageValue 
stageValue 
Whitespace -> stageEqual 
ArrayLeftBrack -> stageArray 
String -> stageEmpty 
Boolean -> stageEmpty 
Integer -> stageEmpty 
Float -> stageEmpty 


Datetime -> stageEmpty 


stageArray 


Whitespace -> stageEqual 
ArrayLeftBrack -> stageArrayWho 
ArrayRightBrack-> stageArrayWho 


String -> stageStringArray 
Boolean -> stageBooleanArray 
Integer -> stageIntegerArray 
Float -> stageFloatArray 
Datetime -> stageDatetimeArray 
stageStringArray 

Whitespace -> stageStringArrayComma 
String -> stageStringArray 


ArrayRightBrack-> stageArrayPop 


stageStringArrayComma 


whitespace -> stageStringArrayComma 
Comma -> stageStringArray 
ArrayRightBrack-> stageArrayPop 


以 此 类 推 , 其 中 


为 便于 阅读 ， 上 述 定义 省 略 部 分 新 行 和 注释 ， 这 不 会 影响 理解 . 

Array <TkH4, stageArrayWwho 有 多 种 实现 方法 ， 需 要 专门 的 篇 幅 描述 ， 本 文 不 讨论 . 
stageStringArray 也 受 诅 套 影响 ， 肯 定 不 能 这 么 简单 就 得 到 stageXxxxArray， 本 文 不 讨论 . 
如 果 某 个 token 在 解析 时 做 不 到 验证 完整 性 ， 可 以 放 到 生成 Tom 时 再 检查 . 


注 ; 在 本 新 手眼 里 Array 的 谋 套 被 当 作 左 递归 的 一 种 , 理论 上 PEG 要 求 消除 左 递归 文法 , AF 
工 硬 编码 解决 这 问题 吧 . 


完全 手工 构造 场景 变化 表 是 比较 痛苦 的 , 可 以 把 token 匹配 和 文法 合法 性 检查 分 开 , MA stage 
的 数量 . 比如 stageStringArrayComma 就 可 以 减 省 , 留 给 其 他 代码 处 理 . 


你 会 发 现 不 同 语言 实现 的 PEG, 在 表达 式 文法 和 用 词 上 甚至 不 一 致 . PEG 确实 没有 规定 确切 文 
法 用 词 , PEG 关注 的 是 解析 中 的 逻辑 关系 . 


ABNF 


BNF 是 巴 科 斯 范式 , 英语 : Backus Normal Form 的 缩写 , 也 被 称 作 巴 科 斯 -诺尔 范式 ,英语 : 
Backus-Naur Form. Backus 和 Naur 是 两 位 作者 的 名 字 . 必须 承认 这 是 一 项 伟大 的 发 明 , BNF 
开创 了 描 pe 集 形 式 . 如 果 您 还 不 了 解 BNF, 82% Google 一 下 . 随时 间 
推移 逐渐 衍生 出 一 些 扩 展 版 本 , 这 里 直接 列举 几 条 ABNF RFC5234 定义 的 文法 规则 . 


PS: 后 续 代码 实现 部 分 ， 早期 的 代码 思路 不 够 精简 , 在 现实 中 很 难 应 用 . 后 期 又 做 了 纯 规则 的 实 
青 读者 选择 性 阅读 , 以 免 浪费 您 宝贵 的 时 间 


; 注释 以 分 号 开始 








name = elements ; name 规则 名 ，elements 是 一 个 或 多 个 规则 名 ， 本 例 只 是 示意 
command = "command string" ; 字符 串 在 一 对 双 引 号 中 ， 大 小 写 不 敏感 
rulename = %d97 %d98 %d99 “， 值 表示 "abc"， 大 小 写 敏感 ， 2H ABNF 规则 定 界 符 
foo = %x61 ; a， 上 面 的 "%d" 开头 表示 用 十 进 制 ，"%Xx" 表示 用 十 六 进 制 
bar = %x62 ; b, "%x62" 等 同 "%d98" 
CRLF = %d13.10 ; 值 点 连接 ， 等 同 "%d13 %d10" 或 者 "%xOD %xOA" 
mumble = foo bar foo ; Concatenation 级 联 ， 上 面 定 义 了 foo，bar， 等 同 区 分 大 小 写 的 "aba 
ruleset = alti / alt2 i Alternative 替代 ， 匹 配 一 个 就 行 ， 以 "/" 分 界 
ruleset =/ alt3 增 量 替代 以 "=/" 指示 
ruleset = alti / alt2 / alt3 ; 等同 于 上 面 两 行 
ruleset = alti / ; 你 也 可 以 分 成 多 行 写 
alt2 / 
alt3 
DIGIT = %x30-39 ; Value range 值 范围 ， 用 "-" 连接 ， 等 同 下 面 
DIGIT = Ng" / Ue A / Mee yu if ngu A was Vf We / m6" / Wire if en / non 
charline = %x0D.0A %x20-7E %x9D.9A ; 值 点 连接 和 值 范围 组 合 的 例子 
seqGroup = elem (foo / bar) blat ; Grouping 分 组 ， 一 对 圆 括号 包 庄 ， 与 下 面 的 含义 完全 不 同 
seqGroup = elem foo / bar blat  ”; 这 是 两 个 蔡 代 ， 上 面 是 三 个 级 联 
integer = 1*DIGIT ; Repetition 重复 ，1 至 无 穷 个 DIGIT 
some = *1DIGIT ;0 至 1 个 DIGIT 
someAs = 0*1DIGIT ; 44-17 
year = 1*4DIGIT , 1 2 4 * DIGIT 
foo = *bar ; 0 至 无穷 * bar 
baz = 3foo ; 3 K&R foo, < 3*3foo 
number = 1*DIGIT ["." 1*DIGIT] ; Optional TAN, APHSAR, FATHRHEK 
number = 1*DIGIT *1("." 1*DIGIT) 
number = 1*DIGIT 0*1("." 1*DIGIT) 
foobar = baz ; prose-val 用 尖 括 号 括 起 来 ， 值 就 可 以 包含 空格 和 VCHAR 


; 范围 是 *(%x20-3D / %x3F-7E) 
二 了 区 


上 面 的 描述 用 的 也 是 ABNF, 事实 上 这 些 文字 就 源 自 RFC5234 规范 . 级 联 规则 就 是 一 个 顺序 匹 
配 的 序列 , 好 比 Seq 顺序 规则 或 者 叫 And 规则 . 替代 好 比 Or 规则 或 者 叫 Any 规则 . 


四 则 运算 表达 式 


现在 我 们 党 POTEM AENEA 法 . 我 们 从 人 脑 运算 方式 逐步 推演 出 正确 的 写 
法 . 周知 四 则 运算 会 包含 数字 和 运算 符 还 有 括号 . 


; 错误 写法 一 

; Expr 表示 要 解决 的 问题 ， 四则 运算 规则 

Expr = Num / ; Num 表示 数字 ， 仅 仅 一 个 数字 也 可 以 构成 Expr 
Num Op Expr / Op ”运算 符 
"(" Expr ")"/ 括号 会 改变 Expr 运算 优先 级 
Expr Op Expr 最 复杂 的 情况 


~ ~ ~ 


Op = "4" / wou / We / uyu 9 运算 符 的 定义 
Num = 1*(0-9) ; 最 简单 的 正 整 数 定义 


的 写法 模拟 人 脑 做 四 则 运算 的 习惯 , 很 明显 绝 大 多 数 解 析 器 都 无 法 使 用 这 个 规则 . 因为 出 
现 了 左 递归 . "最 复杂 的 情况 " 这 一 行 中 Expr 出 现在 规则 的 最 左边 , 这 将 导致 解析 器 递归 , 造成 
ee 虽然 可 以 把 解析 器 We age 但 这 会 使 解析 器 很 复杂 , 并 造成 效率 

下 ,时 间 复 杂 度 陡 增 , 所 以 通常 要 求 写 规则 时 就 消除 左 递归 . 


AE > aT HEIR. 消除 左 递归 一 般 通过 因 式 r & (terms) AFR. 通过 
factor 或 者 term 解除 左 递归 发 生 的 可 能 性 , 好 比 多 绕 几 个 圈子 , 多 给 解析 器 几 条 路 , 让 解析 器 

绕 过 死 循 环 的 路 径 . 下 面 加 上 了 Repetition 重复 规则 . 我 们 先 按照 人 脑 思 维 , 乘法 除法 优先 的 顺 
序 来 写 


; 错误 写法 二 


Expr = Term  *Mul / ; Mul 是 乘法 ，*Mu1 表示 可 能 有 或 没有 ，Term 就 是 要 绕 的 圈子 了 . 
Term *Quo ; 除法 和 乘法 一 样 ，Term 这 个 园子 其 实 表示 的 还 还 是 Expr. 
Term = Factor *Add / ; 一 个 圈子 明显 不 行 ， 再 绕 个 圈子 Factor, 
Factor *Sub ; 这 两 行 描述 加 减法 ， 逻辑 都 没 错 吧 ， 都 是 可 能 有 ， 也 可 能 没有 
Factor = Num / ; 绕 再 多 圈子 总 是 要 回来 的 ， 数字 总 要 有 吧 
"(" Expr ")" ; 括号 的 运算 总 要 有 吧 
Add = "+" Term ; 一 旦 出 现 运算 符 ， 后 面 一 定 会 有 后 续 的 表达 式 吧 
Sub = "-" Term 
Mul = "*" Factor 
Quo = "/" Factor 
Num = 1*(0-9) 


看 上 去 会 发 生 左 递归 么 ? 不 会 , 怎么 绕 你 都 不 会 死 循环 , AA Factor 的 第 一 条 规则 Num, 42% 
圈 圈 一 个 结束 的 机 会 . 这 个 叫 终结 符 . 但 是 这 个 写法 是 错误 的 . 你 可 以 在 脑子 里 模拟 下 1+2-3 ， 
到 .号 的 时 候 就 解析 不 下 去 了 ，1+2 被 


Term = Factor *Add 


匹配 了 , 但 是 后 面 还 有 - 号 , 被 匹配 的 是 加 法 规则 


Add = "+" Term ; 最 后 一 个 又 回 到 Term 


但 是 Term 无 法 匹配 减 号 , Term 推演 规则 中 没有 以 减 号 开头 的 . 你 说 重头 来 不 就 行 了 ? 不 行 , 解 

析 器 执行 的 规则 是 找到 一 条 路 可 以 一 直 走 下 去 , 如 果 走 不 动 了 , 就 表示 这 条 规则 匹配 完成 了 ,或 
者 失败 了 . 减 号 来 的 时 候 , 如 果 假设 解析 器 认为 1+2 已 经 走 完 , 减 号 来 的 时 候 还 是 要 从 Expr 
开始 , 不 能 直接 从 Sub 开始 , 开始 只 能 有 一 个 , 从 Expr 开始 推导 不 出 首次 就 匹配 BAY, 所 以 
142-3 没有 走 完 , 解析 进行 不 下 去 了 . 


那 上 面 的 问题 出 在 哪里 呢 ? 问题 在 : 

终结 符 在 推导 循环 中 不 能 首次 匹配 

问题 的 逻辑 是 : 

可 以 穷 举 开始 和 结尾 , 不 能 穷 举 中 间 过 程 . 

解决 方法 是 循环 或 者 递归 : 

在 循环 和 递归 中 已 经 没有 明确 的 开始 , 头 尾 相 接 就 没有 头 尾 了 ,没有 头 尾 也 意味 能 一 直 绕 下 去 
综合 这 三 句 话 , 我 们 解决 问题 的 方法 也 就 出 来 了 : 


1. 3] ATerm, Factor HRA Ia 
2 ， 要 给 终结 符 在 循环 中 首次 匹配 的 机 会 或 者 说 不 阻 断 循环 的 进行 


终结 符 就 是 推导 循环 到 了 最 后 , 不 包含 推导 循环 中 的 其 他 规则 名 , 再 来 符号 就 是 新 的 , 要 重头 开 
始 . 有 终结 但 无 法 继续 重头 开始 , 圈子 绕 不 下 去 了 . 


继续 推演 , 我 们 先 确定 终结 符 . 我 们 用 个 小 技巧 , 按 优先 级 合并 运算 符 . 


Sy 


;正确 写法 
Expr 
Term 


Term  *Sum ; 继续 绕 圈 子 ，*Sum 有 或 者 没有 ， 先 写 求 和 是 有 原因 的 
Factor *Mul ; #34, *Sum 不 匹配 ， 就 尝试 乘积 


Sum = SumOp Term ; 求 和 的 运算 ， 有 运算 符 必 定 要 有 后 续 表 达 式 
Mul = MulOp Factor ; 乘积 的 运算 ， 
Factor = Num / ; 引 向 终结 
"(" Expr ")" ”括号 永远 都 在 
Num = 1*(0-9) ; 数字 ， 这 可 以 是 独立 的 终结 符 
SumOp = "+" / "-" ; 加 或 者 减 ， 可 以 叫做 求 和 ， 小 技巧 
Mulop = "#" / nm  : RAŽ, TUYERE 


把 这 两 种 写法 左右 排列 , 看 的 更 清楚 


Expr = Term *Mul / ; Expr 


. = Term *Sum ; 蛇 头 
Term *Quo ; Term = Factor *Mul ; 蛇 头 
Term = Factor *Add / ; Sum = SumOp Term ; 咬 蛇 尾 
Factor *Sub ; Mul = MulOp Factor ; 咬 蛇 尾 
Factor = Num / ; Factor = Num / 
aCe Expr to) : Ge Expr a) 
Add = "+" Term ; SumOp = 
Sub = wou Term > mon 
Mul = "*" Factor ; MulOp = 
Quo = "/" Factor j WAR 
Num = 1*(0-9) ; Num = 1* (0-9) 
你 应 该 发 现 了 , 主要 区 别 是 : 运算 符 和 后 续 的 Expr 的 结合 处 理 方式 不 同 . 左 侧 的 规则 是 : (数字 ， 


该 Ñ 
运算 符 ,数字 ) 然后 还 想 找 (数字 ,运算 符 ,数字 ). 右 侧 的 规则 是 : (数字 ,运算 符 ) 然后 继续 (数字 , 运 
算 符 ), 最 后 找到 终结 . 


I 
左 侧 规划 了 一 条 既定 的 有 终结 路 线 , 走 不 了 几 步 就 终结 了 . 蛇 头 没 咬 到 蛇 尾 , 咬 到 七 寸 了 . 右 便 
规划 了 一 条 蛇 头 咬 蛇 尾 的 循环 路 线 , 循环 中 所 有 的 规则 名 都 有 机 会 匹配 . 


这 是 早期 思路 所 写 的 代码 , 事实 上 我 自己 用 起 来 也 很 不 舒服 , 也 一 直 没 有 放出 来 , 就 当做 失败 的 
例子 吧 


ABNF 具有 很 强 的 表达 能 力 , 这 里 以 ABNF 为 基础 分 析 要 分 离 出 的 规则 元 素 . 终结 符 和 非 终结 
符 , 可 以 这 样 描述 


1. atom 终结 符 , 就 是 个 对 输入 字符 进行 判断 的 函数 
2. term 非 终 结 符 , 可 能 有 多 个 或 多 层 term/atom 组 合 , 也 可 用 group 这 个 词 
3. factor 抽象 接口 , term 和 atom 的 共性 接口 , 代码 实现 需要 抽象 接口 


用 group 替换 term 在 语义 上 也 是 成 立 的 , 一 个 独立 的 term 也 可 以 看 作 只 有 一 项 规则 元 素 的 
group. 


元 素 关 系 可 以 分 


1. Concatenation 级 联 匹 配 
2. Alternation 替代 匹配 


atom 可 以 看 作 只 有 一 项 的 级 联 , group 需要 选择 两 者 之 一 . 那么 group 需要 可 以 增加 规则 元 素 
的 接口 


1. Add(factor) 
在 做 解析 的 时 候 常 采用 循环 的 方法 , 某 个 循环 结束 后 会 产生 两 个 状态 


1. ok 解析 是 否 成 功 


2. end 解析 是 否 结束 


任何 时 候 遇 到 end, 无 论处 于 那 一 级 循环 中 , 都 要 终止 解析 . 如 果 不 是 end, 那么 依据 元 素 关 系 
和 解析 是 否 成 功 进行 判断 , 决定 尝试 匹配 下 一 个 规则 元 素 或 者 返回 lok, lend. 


1. 给 term/group, atom/factor 命名 或 设 定 id 
2. 设置 term/group, atom/factor 的 重复 属性 repeat. 


多 


综合 上 述 分 析 大 致 的 接口 设计 如 下 


type Factor interface { 
[ies 
每 个 Factor 都 有 一 个 唯一 规则 ID 
Grammar 的 id 固定 为 9， 
Atom, Group 自动 生成 或 者 设 定 ， 自 动 生成 的 ID 为 负数 . 
2 
Id() int 


TAE 

返回 Factor A. 常量 KGrammar / KGroup / KFactor. 
这 里 简单 用 int 类 型 区 分 

6 

Kind() int 


Pe 

Mode 返回 Factor 所 使 用 的 匹配 模式 
Atom 总 是 返回 常量 MConcatenation. 
> 

Mode() int 


ffs 
匹配 脚本 
参数 ; Scanner 是 个 rune 扫描 器 ，Record 用 于 记录 解析 过 程 ， 
返回 值 : 

ok 是 否 匹配 成 

end 是 否 终止 匹配 ， 事实 上 由 Record 决定 是 否 终 止 匹 配 
Eh 
Process(script Scanner, rec Record) (ok, end bool) 


} 


// 语法 接口 也 基于 Factor 
type Grammar interface { 
Factor 
[ees 
生成 一 个 Term 过 渡 对 象 ， 
Wises Bo we, alal 
初始 匹配 模式 为 MConcatenation. 
参数 id MR <= 0 或 者 发 生 重 复 ， 那 么 自动 生成 负数 id. 
A 
Term(id int) Term 


// A Grammar.Process 设置 最 初 规则 ， 
Start(rule ...Factor) Grammar 


// 设置 为 Concatenation 匹配 模式 
Concatenation() Grammar 


// 设置 为 Alternation 匹配 模式 
Alternation() Grammar 


} 


pide 
term 是 个 中 间 件 ， 最 终 要 转化 为 Group/Factor 
if 


type Term interface { 
Factor 
// A Term 命名 ， 不 检查 名 称 唯一 性 ， 
Named(string) Term 


ea 
设置 Repeat, Až a, b 对 应 ABNF 的 repeat 定义 a*b. 
wR b <a, 把 b 作 为 9 处 理 . 

Hilf 

Repeat(a, b uint) Term 


// 转 为 Group 
Group() Group 


// 由 Atom ##A Factor 
Atom(atom Atom) Factor 


} 
Pi 
Group 具有 Add 方法 
S 
type Group interface { 
Factor 
// 设置 为 Concatenation 匹配 模式 
Concatenation() Group 
// 设置 为 ALlternation 匹配 模式 
Alternation() Group 
ea 
添加 一 组 规则 , 
如 果 没 有 通过 检查 返回 nil 
4 
Add(rule ...Factor) Group 
} 


从 中 可 以 看 出 , Term 是 个 过 渡 接 口 , 设计 这 个 的 原因 是 : 


ABNF 文法 中 的 规则 定义 和 程序 中 的 类 型 定 相似 , 次 序 无 所 谓 , 只 要 有 定义 . 很 
的 时 候 , 这 些 元 素 是 以 变量 的 形式 存在 的 , 我 们 需要 先生 成 变量 , 然后 在 进行 关 
现 了 一 个 


aM 
S 
> 
att 
让 
J 


// E Term 表现 四 1 
// g 是 个 Grammar 


起 个 名 字 叫 Arithmetic 
g := New("Arithmetic") 





Mie Be 生 成 规则 元 素 ，Atom 的 参数 id 是 预定 义 的 常量 

expr a (e Term().Named("Expr").Group() 

end := g.Term().Named("E0OF").Atom(IdEof, ItsEOF) 
num := g.Term().Named("Num'").Atom(NUM, ItsNum) 





// GenLiteral 是 个 辅助 函数 函数 ， 生成 字符 串 匹 配 Atom 
C := g.Term().Named("(").Atom(LPAREN, GenLiteral(`(`, nil)) 
D := g.Term().Named(")").Atom(RPAREN, GenLiteral(`)`, nil)) 


term := g.Term().Named("Term").Group() 

sum := g.Term().Zero().Named("Sum").Group() 

factor := g.Term().Named("Factor").Group().Alternation() 
mul := g.Term().Zero().Named("Mul").Group() 


Sumop := g.Term().Named("Sum0p").Group().Add( 
g.Term().Named("+").Atom(ADD, GenLiteral(`+`, nil)), 
g.Term().Named("-").Atom(SUB, GenLiteral(`-`, nil)), 

).Alternation() 


mulOp := g.Term().Named("MulOp").Group().Add( 
g.Term().Named("*").Atom(MUL, GenLiteral( * , nil)), 
g.Term().Named("/").Atom(QUO, GenLiteral(`/`, nil)), 
).Alternation() 


nested := g.Term().Named("Nested").Group().Add(C, expr, D) 


yp ail 合 规 则 UK 
g. Ba nd “ expr) 


expr.Add(term, sum) 
term.Add(factor, mul) 
sum.Add(sum0p, term) 
mul.Add(mulOp, factor) 


factor.Add(num, nested) 


// 这 里 省 略 了 script 和 rec 的 生成 
g.Process(script, rec) 


Term 的 出 现 , 虽然 逻辑 上 完整 了 , ROSH RALEREM. 看 来 只 有 通 数 简化 代码 
了 . 


手工 至 上 


连续 两 章 学 习 解 析 器 , 事实 上 笔者 自己 尝试 实现 了 一 个 基于 ABNF 的 解析 器 维 形 . 然而 由 于 采 
用 了 递归 的 匹配 方式 , BAN MALE RILA ZG HAR, 和 go 官方 提供 的 json 包 对 比 解析 速度 

慢 几 十 倍 . go 官方 的 json 包 是 纯 手 工 代 码 实现 的 . 采用 大 家 常常 听 到 的 先 词法 分 析 后 语法 分 析 
的 方法 , 事实 摆 在 眼前 , 这 种 手工 的 方法 昊 的 是 最 快 的 . 同样 的 方法 我 们 在 go 的 标准 库 中 可 以 
找到 多 处 , 各 种 教 课 书 中 讲 的 解析 相关 知识 根本 就 没 用 上 , REA ARM. 直接 看 相关 源 代码 就 
能 了 解 细节 . 


手工 代码 构造 的 先 词法 分 析 后 语法 分 析 的 解析 器 是 最 快 的 


HRH 


ZxX 是 很 偶然 的 一 次 Q 群 聊天 玩笑 的 产物 , 到 目前 为 止 这 依然 是 个 设想 (玩笑 ). 好 在 新 的 ZXX 
abnf 产生 了 . 这 次 尝试 了 另外 的 思路 , 到 目前 为 止 感觉 还 不 错 . 


如 前 文 所 述 , 可 以 从 ABNF 规范 中 抽 离 出 独立 的 匹配 规则 , FAR 代表 一 个 规则 . 


1. Zero 规则 对 应 R* MERKAR 

2. Option 规则 对 应 R{0,1} 匹配 零 次 或 一 次 
3. More 规则 对 应 R{1,} 匹配 一 次 或 多 次 

4. Any 规则 对 应 多 个 规则 匹配 任意 一 个 

5. Seq 规则 对 应 多 个 规则 被 顺序 匹配 

6. Term 所 有 规则 是 有 Term 组 成 的 . 


基本 的 匹配 规则 逻辑 . 毫 无 疑问 , 文法 解析 是 从 一 个 字 节 一 个 字 节 进行 的 , 前 文 的 实现 
思考 的 . 现在 换个 角度 考虑 问题 : 


字符 串 也 好 ， 叫 做 Token 22, AE SKK EF/BI—* Token 是 否 满 菜 个 条 件 ， 





我 们 知道 解析 的 最 小 单位 是 Token, 我 们 个 Token 加 一 个 成 员 方 法 


// Has 返回 token 等 于 tok 或 者 包括 tok 
func (token Token) Has(tok Token) bool 


// 这 里 截取 部 分 Token 定义 
const ( 
EOF Token = iota 





那么 Type.Has(INT) 的 值 就 为 true. 


BP Token 的 Has 方法 为 前 述 的 ABNF 规则 提供 了 最 底层 的 判断 . Token 的 类 型 不 再 重要 , Has 
保证 了 一 切 . 现实 中 可 从 扫描 器 得 到 Token. 而 zxx abnf 只 关心 相关 的 规则 定义 . 


列举 下 相关 定义 ,有 些 注 释 省 略 , 完整 代码 在 Zzxx abnf: 


大 


// Flag 表示 规则 匹配 Token 后 的 状态 
type Flag int 


const ( 
Matched Flag = 1 << iota // 匹配 成 妃 
Standing // 7 
Finished // 规 见 
// 下 列 标 记 由 算 





, Match 返回 值 不 应 该 


Handing // 正在 SEP (Match), TAR 





Cloning // 正在 进行 克隆 
Custom // 通用 标记 位 ， 包括 更 高 的 位 都 由 Match 自 定义 用 途 ， 
) 


type Rule interface { 
// Match 返回 匹配 tok 的 状态 标记 .实现 必须 遵守 以 下 约定 : 
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// 返回 值 为 下 列 之 一 : 

if 

Mit 0 

// Matched 

Hi Matched |Standing 

if Matched | Finished 

Wh Finished 

WY 

// HEE: 

WY 

// 规则 状态 为 9，Finished，Matched|Finished 时 自动 重 置 ， 可 接受 新 的 匹配 . 
IA 

// EOF 重 置 : 当 最 终 状态 为 

YY 

// Matched 最 终 状态 是 不 确定 完整 匹配 . 

Wij Matched|Standing 最 终 状 态 是 完整 匹配 . 
Hi 

// 时 使 用 Match(EOF) 重 置 规则 并 返回 Finished， 其 它 状 态 不 应 该 使 用 EOF REE. 
Mi 

// 末尾 完整 测试 : 

Hip 


// 类 似 Seq(Term(XX),Option(YY),Option(ZZ)) 规则 ， 单 个 XX 也 是 合法 的 ， 
// 但 是 由 于 Option 的 原因 ， 匹 配 单个 XX 的 状态 为 Matched, 
// 因此 再 匹配 一 个 不 可 能 出 现 的 Token， 可 以 测试 规则 是 否 完整 ， 


Match(tok Token) Flag 


// Bind BReEBPREMMESHEA, AP AMM SS SPM, 
// 其 他 情况 都 不 应 该 使 用 Bind. 
Bind(Rule) 


// Clone 返回 克隆 规则 ， 这 是 深度 克隆 ， 但 不 含 递 归 ， 
// 递归 规则 在 Match 中 通过 判断 Handing 标记 及 时 建立 的 ， 
Clone() Rule 


// IsOption 返回 该 规则 是 否 为 可 选 规则 « 
// 事实 上 除了 Option 是 明确 的 可 选 规则 外 ， 其 它 组 合 可 能 产生 事实 上 的 可 选 规则 . 
IsOption() bool 

} 


// Term 用 来 包装 Token 
// Term 产生 任 一 Token 匹配 规则 ，Match 方法 返回 值 为 : 
HYE 0 


Wal, Matched | Finished 
VE Finished 4 EOF 重 置 或 者 tok == nil 





func Term(tok ...Token) Rule 
func Option(rule Rule) Rule 
func Once(rule Rule) Rule 


// More 产生 重复 匹配 规则 , 

// rule 必须 初次 匹配 成 功 ， 然 后 当 rule 匹配 结果 为 0, Finished 时 尝试 sep Lie, 
// 如 果 sep 匹配 成 功 则 继续 匹配 rule. 

Ah 

func More(rule, sep Rule) Rule 


// Any 产生 任 一 匹配 规则 ， 
// 不 要 用 Any(rule, Term()) 替代 Option, MAÈ IsOption() PTE. 
func Any(rule ...Rule) Rule 


// Seq 产生 顺序 匹配 规则 
func Seq(rule ...Rule) Rule 


A 


第 7 章 : 解析 器 与 ABNF 32 


你 


先 


v 


A 


能 注意 到 其 中 没有 Zero 规则 , 因为 不 需要 它 , Flag 的 Finished 隐 含 的 兼容 了 Zero 规则 . 


这 么 多 , 就 5 个 规则 , 写 多 了 反而 添乱 


Router 


WEB 开发 离 不 开 Router. 通常 Router 负责 对 HTTP Request URL 进行 分 析 , 匹配 到 对 应 的 处 
理 对 象 . URL 可 以 分 为 三 部 分 Host, Path, als 在 官方 bee 的 http.Request 对 象 

中 有 对 应 的 字段 . 以 前 作者 没有 关注 路 由 具体 实现 , 只 是 拿 来 用 . 很 偶然 发 现 一 个 路 由 评测 项 目 
go-http-routing-benchmark. 尽管 路 由 的 开销 很 低 , 仍旧 很 惊异 不 同 路 由 有 这 么 大 差异 , MAT 
也 实现 一 个 吧 . 


Rivet 


a 
lA 


于 是 Rivet 诞生 了 . Rivet #9 T httprouter 的 方法 , 用 前 级 树 (Trie) 管 理 路 由 节点 , 这 是 提高 
配 速度 的 关键 . 另外 作者 发 现 事实 上 : 


带 参数 的 URL.Path 很 普遍 , 字符 串 参 数 可 能 被 转换 类 型 . 
路 由 处 在 处 理 请 求 的 前 端 , 这 期 间 应 用 应 该 有 机 会 拒绝 请 求 . 
Host 路 由 应 当 被 支持 . 

Martini 的 注入 方式 确实 方便 . 

路 由 应 该 可 被 独立 使 用 , 而 不 是 和 框架 强 厅 合 


Rivet 满足 了 这 些 需求 , 而 且 性 能 非常 可 观 . 


Module 
ER Rivet 采用 了 注入 方式 , 那 应 该 可 以 开发 只 使 用 Go 自 带 pkg 与 框架 无 关 的 独立 模块 ,以 
便 应 用 选取 不 同 的 框架 . 当然 事实 上 选用 支持 注入 的 框架 是 最 方便 的 . 


mod 就 是 这 样 的 尝试 , 目前 , 作者 也 不 知道 能 有 多 少 模块 可 以 采用 这 种 开发 方式 , REM? 
iR. 


